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Cercetare şi aplicaţii în reţelele sociale 


Bogdan Batrinca, Philip C. Treleaven 


Rezumat 


Rețelele sociale sunt definite ca aplicaţii de internet bazate pe web şi pe mobil care permit 
crearea, accesul şi schimbul de conținut generat de utilizatori care este accesibil omniprezent. Pe 
lângă rețelele sociale (de exemplu, Twitter şi Facebook), pentru comoditate, vom folosi termenul 
„social media” pentru a include şi fluxuri RSS, bloguri, wiki-uri și ştiri, toate generând de obicei 
text nestructurat şi accesibile prin intermediul web. Rețelele sociale sunt importante în special 
pentru cercetarea în ştiinţa socială computațională care investighează întrebări folosind tehnici 
cantitative (de exemplu, statistici computaţionale, învățarea automată şi complexitate) şi aşa- 
numitele megadate (big data) pentru extragerea datelor şi modelarea prin simulare. 

Sursa: Bogdan Batrinca, Philip C. Treleaven, "Social media analytics: a survey of 
techniques, tools and platforms", A/ & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, 
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CERCETARE ȘI APLICAȚII ÎN REȚELELE SOCIALE 


Rețelele sociale sunt definite ca aplicaţii de internet bazate pe web şi pe mobil care permit 


crearea, accesul şi schimbul de conţinut generat de utilizatori care este accesibil omniprezent 
(Kaplan şi Haenlein 2010). Pe lângă reţelele sociale (de exemplu, Twitter şi Facebook), pentru 
comoditate, vom folosi termenul „social media” pentru a include şi fluxuri RSS, bloguri, wiki-uri 
ŞI ştiri, toate generând de obicei text nestructurat și accesibile prin intermediul web. Rețelele 
sociale sunt importante în special pentru cercetarea în ştiinţa socială computațională care 
investighează întrebări (Lazer şi colab. 2009) folosind tehnici cantitative (de exemplu, statistici 
computaţionale, învăţarea automată şi complexitate) şi aşa-numitele megadate (big data) pentru 
extragerea datelor şi modelarea prin simulare (Cioffi- Revilla 2010). 

Acest lucru a condus la numeroase servicii de date, instrumente şi platforme de analiză. Cu 
toate acestea, această disponibilitate uşoară a datelor din reţelele sociale pentru cercetarea 
academică se poate schimba semnificativ din cauza presiunilor comerciale. În plus, instrumentele 


disponibile cercetătorilor sunt departe de a fi ideale. Acestea fie oferă acces superficial la datele 
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brute, fie (pentru acces nesuperficial) solicită cercetătorilor să programeze analitice într-un limbaj 


precum Java. 


Terminologie 


Definiţiile unora dintre tehnicile cheie legate de analiza datelor textuale nestructurate: 


e Procesarea limbajului natural — (natural language processing, NLP) este un 
domeniu de informatică, inteligență artificială și lingvistică preocupat de interacțiunile 
dintre computere şi limbajele umane (naturale). Mai exact, este procesul unui computer 
care extrage informații semnificative din intrarea în limbaj natural şi/sau produce ieşiri în 
limbaj natural. 

e  Analitica ştirilor — măsurarea diferitelor atribute calitative şi cantitative ale ştirilor (date 
nestructurate). Unele dintre aceste atribute sunt: sentimentul, relevanţa şi noutatea. 

e Mineritul opiniilor — mineritul opiniei (mineritul sentimentelor, extracția 
opiniei/sentimentului) este domeniul de cercetare care încearcă să creeze sisteme automate 
pentru a determina opinia umană din text scris în limbaj natural. 

e  Scraping—colectarea de date online de pe reţelele sociale și alte site-uri web sub formă 
de text nestructurat şi cunoscută şi sub denumirea de site scraping, recoltare web şi 
extragere de date web. 

e Analiza sentimentelor — analiza sentimentelor se referă la aplicarea procesării limbajului 
natural, a lingvisticii computaţionale și a analizei de text pentru a identifica şi extrage 
informații subiective din materialele sursă. 

e  Analitica textelor — implică extragerea informaţiilor (information retrieval, IR), analiza 
lexicală pentru a studia distribuțiile de frecvență a cuvintelor, recunoaşterea modelelor, 
etichetarea/adnotarea, extragerea informațiilor, tehnicile de minerit a datelor, inclusiv 
analiza de legături şi asocieri, vizualizare şi analitica predictivă. 


Provocări în cercetare 


Scraping (scanarea) şi analitica rețelelor sociale oferă o sursă bogată de provocări de 
cercetare academică pentru oamenii din ştiinţe sociale, informaticieni şi organismele de finanţare. 


Provocările includ: 


e  Scraping — deşi datele din reţelele sociale sunt accesibile prin intermediul API-urilor, din 
cauza valorii comerciale a datelor, majoritatea surselor majore, cum ar fi Facebook 
şi Google, fac din ce în ce mai dificil pentru cadrele universitare să obţină acces complet 
la datele lor „brute”; foarte puţine surse de date sociale oferă date la preţuri accesibile 
mediului academic și cercetătorilor. Serviciile de ştiri cum ar fi Thomson Reuters și 
Bloomberg percep de obicei o sumă pentru accesul la datele lor. În schimb, Twitter a 
anunţat recent programul Twitter Data Grants, în care cercetătorii pot aplica pentru a obţine 
acces la tweet-urile publice şi datele istorice ale lui Twitter pentru a obține informaţii din 
setul său masiv de date (Twitter are mai mult de 500 de milioane de tweet-uri pe zi). 
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e  Curăţirea datelor — curățarea datelor textuale nestructurate (de exemplu, normalizarea 
textului), în special a datelor transmise în flux de înaltă frecvenţă în timp real, prezintă încă 
numeroase probleme şi provocări de cercetare. 

e Surse de date holistice — cercetătorii reunesc şi combină din ce în ce mai mult surse de 
date noi: date de pe rețelele sociale, date de piaţă și clienți în timp real şi date geospaţiale 
pentru analiză. 

e Protecţia datelor — odată ce aţi creat o resursă de „„megadate” ("big data”), datele trebuie 
securizate, problemele de proprietate şi de IP rezolvate (adică, stocarea datelor extrase este 
împotriva majorității termenilor de serviciu ai editorilor), iar utilizatorii să aibă la 
dispoziţie diferite niveluri de acces; în caz contrar, utilizatorii pot încerca să „sugă” toate 
datele valoroase din baza de date. 

e  Analitica datelor — analiza sofisticată a datelor din rețelele sociale pentru mineritul 
opiniilor (de exemplu, analiza sentimentelor) ridică încă o multitudine de provocări din 
cauza limbilor străine, cuvintelor străine, argoului, erorilor de ortografie și 
evoluţiei naturale a limbilor. 

e Tablouri de bord pentru analitica — multe platforme de reţele sociale impun 
utilizatorilor să scrie API-uri pentru a accesa fluxuri sau modele de analitica programelor 
într-un limbaj de programare, cum ar fi Java. Deşi sunt rezonabile pentru informaticieni, 
aceste abilităţi depășesc de obicei majoritatea cercetătorilor (ştiinţe sociale). Sunt necesare 
interfeţe care nu sunt de programare pentru a oferi ceea ce s-ar putea numi acces „profund” 
la datele „brute”, de exemplu, configurarea API-urilor, îmbinarea fluxurilor de rețele 
sociale, combinarea surselor holistice şi dezvoltarea modelelor analitice. 

e Vizualizarea datelor — reprezentare vizuală a datelor prin care informaţiile care au fost 
extrase într-o formă schematică cu scopul de a comunica informaţiile în mod clar şi eficient 
prin mijloace grafice. Având în vedere amploarea datelor implicate, vizualizarea devine 
din ce în ce mai importantă. 


Cercetare şi aplicaţii în reţelele sociale 


Datele din rețelele sociale sunt în mod clar cea mai mare, mai bogată şi mai dinamică bază 
de înregistrări ale comportamentului uman, aducând noi oportunități de a înțelege indivizii, 
grupurile şi societatea. Oamenii de știință inovatori și profesioniștii din industrie găsesc din ce în 
ce mai multe modalităţi noi de a colecta, combina și analiza automat această bogăție de date. 
Desigur, a face dreptate acestor aplicaţii de rețele sociale de pionierat în câteva paragrafe este o 
provocare. Trei domenii ilustrative sunt: afaceri, bioștiinţe şi ştiinţe sociale. 

Primii care au adoptat analiza rețelelor sociale de afaceri au fost de obicei companii din 
retail şi finanţe. Companiile de retail folosesc rețelele sociale pentru a-şi valorifica gradul de 
cunoaştere a mărcii, îmbunătăţirea produselor/serviciului pentru clienți, strategiile de 
publicitate/ marketing, analiza structurii rețelei, propagarea ştirilor și chiar detectarea fraudei. În 
finanţe, reţelele de socializare sunt folosite pentru a măsura sentimentul pieţei, iar datele de ştiri 


sunt folosite pentru tranzacţionare. Ca o ilustrare, Bollen et al. (2011) au măsurat sentimentul unui 
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eşantion aleatoriu de date Twitter, constatând că preţurile Dow Jones Industrial Average (DJIA) 
sunt corelate cu sentimentul Twitter cu 2-3 zile mai devreme, cu o acuratețe de 87,6%. Wolfram 
(2010) a folosit datele Twitter pentru a antrena un model de regresie vectorială de suport (SVR) 
pentru a prezice preţurile acțiunilor individuale NASDAQ, găsind un „avantaj semnificativ” pentru 
estimarea preţurilor 15 minute în viitor. 

În bioştiinţe, rețelele sociale sunt folosite pentru a colecta date despre cohorte mari pentru 
inițiative de schimbare a comportamentului şi monitorizarea impactului, cum ar fi combaterea 
fumatului şi a obezității sau monitorizarea bolilor. Un exemplu este biologii de la Penn State 
University (Salathe et al. 2012) care au dezvoltat sisteme şi tehnici inovatoare pentru a urmări 
răspândirea bolilor infecțioase, cu ajutorul site-urilor web de ştiri, blogurilor şi rețelelor sociale. 

Aplicațiile computaţionale ale ştiinţelor sociale includ: monitorizarea răspunsurilor publice 
la anunţuri, discursuri şi evenimente, în special comentarii şi inițiative politice; perspective în 
comportamentul comunităţii; sondaje pe rețelele sociale ale grupurilor (greu de contactat); 
detectarea timpurie a evenimentelor emergente, ca în Twitter. De exemplu, Lerman et al. (2008) 
folosesc lingvistica computațională pentru a prezice automat impactul ştirilor asupra percepției 
publice a candidaților politici. Y essenov şi Misailovic (2009) folosesc comentariile de recenzii ale 
filmelor pentru a studia efectul diverselor abordări în extragerea caracteristicilor textului 
asupra acurateţei a patru metode de învăţare automată—Naive Bayes, Decision Trees, Maximum 
Entropie și K-Means clustering. În cele din urmă, Karabulut (2013) a constatat că Fericirea 
națională brută (GNH) a Facebook prezintă maxime și minime în concordanță cu evenimentele 


publice majore din SUA. 
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